全球隐私计算技术发展概览
目前,数字经济正面临着一个巨大的问题。一方面个人数据处理能力的指数级增长创造了一系列前所未有的可能性,人类可以通过人工智能获得非常有价值的信息。另一方面这些人工智能技术正在给我们带来新的隐私威胁。
在此背景下,大多数关于隐私发展的会议都提出了新的隐私增强技术(PETs)如何在人工智能和机器学习背景下去保护隐私数据。人工智能成为2022-2023年IAPP隐私、安全风险会议的主题,也是2022年IAPP数据保护大会的主导话题。在数据保护机构年度会议上——全球隐私大会的分论文“隐私的未来论坛”举办了三场关于隐私增强技术的会外活动,一些业界知名人士也分享了他们的观点。
新兴的隐私增强技术也受到了各国政府和监管机构的重视,他们围绕 PETs的制定了大量的政策,这也从侧面印证了隐私增强技术领域的飞速发展。
本文我们将从技术定义、技术目的、隐私监管、技术分类、政策支持和未来趋势六个方面来一览全球隐私计算技术现状。
技术定义:什么是隐私增强技术?
隐私增强技术(隐私保护机器学习)尝试将数据挖掘、利用与隐私和道德相结合,涵盖越来越多的新方法,包括联邦学习、差异隐私、可信执行环境、多方计算、同态加密、零知识证明和合成数据。这些技术有着相同的目标:在协作训练、使用机器学习模型时保护个人信息的安全和隐私,同时保持信息的可用性。
隐私增强技术不是一个新概念,其可以追溯到一份题为“隐私增强技术(PETs):匿名之路”的报告,该报告由加拿大和荷兰隐私当局于 1995 年首次发布。该报告表示,“隐私增强指的是:通过最大限度地减少或消除可识别数据的收集来保护个人隐私的各种技术”。另一个早期定义源于经济合作与发展组织 2002 年发布的《隐私增强技术清单》,其中将隐私增强技术定义为“有助于保护个人隐私的广泛技术”。
而目前的各大公司对隐私增强技术的定义强调了它们富有的独特的数据协作机会。
技术目的:维护数据效用
目前,通常把隐私增强技术定位为解决“隐私与公用事业平衡”的重要方案。这表明隐私增强技术提供隐私数据的保护能力,同时可以从数据中分析出有价值的信息。一般来说,想减轻披露风险就会对数据效用产生不利影响,损害数据集的分析完整性和有效性。
欧盟网络安全局 2022 年关于数据保护工程的报告中包括 2001 年对隐私增强技术的定义,将隐私增强技术描述为“一个连贯的信息通信技术系统,通过消除或减少个人数据或防止不必要或不期望被收集的个人数据来保护隐私” 。
这些新兴的隐私增强技术也包括多方计算(MPC),MPC 允许多方根据个人数据计算共同结果,而无需向彼此透露各自的数据输入,其计算过程是基于加密协议,因此不会影响计算结果的准确性。
同样,差异隐私使一种用于数据分析或查询系统的独特方法。其目标是尽可能多地了解数据集,同时保持任何结果的“合理的否认性”,这意味着答案无法确定地追溯到任何特定的受访者。这是通过向数据集添加随机噪声来实现的,以保护个人隐私而不影响查询结果。
而合成数据是由在真实数据集上训练出的模型二次生成的,创建的出类比真实数据的模拟数据,从而取代原始数据,同时再现原始数据集的统计属性和模式。
这些方法都非常有用,例如在卫生部门,根据美国健康保险流通和责任法案等隐私法规规定:共享数据必须要剥离特定标识符的数据。去标识化旨在降低身份泄露风险,但也可能导致信息丢失,使数据集不再用于研究目的。此外,去标识化的健康数据仍然可以定期重新识别。相比之下,新兴的隐私增强技术可以改善披露和重新识别风险缓解,同时保持数据信息价值的有效性。
隐私监管:隐私监管背景下的隐私增强技术
由于隐私法规与技术无关,因此隐私法规中很少明确提及隐私增强技术的解决方案。
隐私设计框架最初由加拿大安大略省前隐私专员 Ann Cavoukian 于 2010 年以七项基本原则的形式建立,如今隐私保护设计已慢慢融入世界各地的隐私和数据保护法。
最突出的例子是欧盟《通用数据保护条例》第 25 条(英国 GDPR 也包含相同的措辞),其中规定数据控制者有义务“考虑现有技术水平、实施成本以及性质、范围、 处理的背景和目的,以及处理对自然人的权利和自由造成的不同可能性和严重程度的风险。” 此外,第 25 条要求以有效的方式实施“旨在实施数据保护原则(例如数据最小化)的适当技术和组织措施(……)”,“在确定保护数据的方法时” 处理以及处理本身时。”
在美国,联邦贸易委员会十多年前就非常重视隐私保护框架设计。在 2012 年的一份报告中,联邦贸易委员会提出了基本原则:“公司应在整个组织内以及在产品和服务开发的每个阶段促进消费者隐私。”
在世界各地的隐私法中也有类似的规定。巴西《通用数据保护法》第 46 条规定“代理人应采取能够保护个人数据的安全、技术和管理措施。” 印度拟议的《2022 年数字个人数据保护法案》第 9.3 章规定“数据受托人应实施适当的技术和组织措施。”
法律法规没有对隐私保护设计的实施进行详细定义,因此适当措施的指导原则是目前实践中被描述为“最先进”的原则。这句话的含义并不是一成不变的。相反,它依赖于技术进步和一定程度的主观性。
ENISA 与德国 TeleTrust 最近将最先进的技术定义为“市场上可实现合法 IT 安全目标的 IT 安全措施的最佳性能”。当“现有科学知识和研究”达到市场成熟度或在市场上推出并尽可能引用国际标准时,通常会出现这种情况。
适当的技术和组织措施在不同时间、不同背景下可能意味着不同的事情。几年前足够好的东西可能不符合当今最终用户和数据处理者的最佳利益。一个典型的例子是在线安全的演变。以前的行业标准(使用未加密的 HTTP 连接访问网站)已不再适用。当前“最先进”的安全性需要带有 TLS 证书的 HTTPS,这意味着在访问网站时与网络服务器的加密连接。
因此,数据控制者必须考虑现有技术的当前进展,并及时了解最新的技术进步,为其特定功能选择侵入性最小的系统设计,同时保持遵守适当的隐私法规。这也是隐私专业人士调查新兴隐私增强技术的主要原因之一。
技术分类:隐私增强技术的分类
一些组织和倡议已经接受了根据新兴隐私增强技术的基础技术、应用或功能对其进行分类的挑战。示例包括:
英国皇家学会关于隐私增强技术在数据治理和协作分析中的作用的新报告
旧金山联邦储备银行关于隐私增强技术的报告
英国数据伦理与创新中心基于用例的 PET 采用指南
联合国4月份发布的隐私增强技术使用指南
至于如何分类,英国信息专员办公室去年提出的草案针对隐私增强技术指出:
可以降低个人的可识别性并有助于实现数据最小化原则,例如差异隐私和合成数据生成。
专注于隐藏和屏蔽数据以实现更好的安全性,例如同态加密、零知识证明和可信执行环境。
可以分割或控制对个人数据的访问,满足数据最小化和更强的安全原则,例如联邦学习和 MPC。
政策支持:隐私增强技术的全球趋势和政策支持
过去几年隐私增强技术领域的快速发展在隐私工程和数据科学界引发了大量讨论。由于隐私增强技术在保护或匿名化数据和数据最小化方面的增强能力,同时保持数据实用性,因此也越来越受到立法者和公共当局的关注。
在欧洲,ENISA 强调了几种新兴的隐私增强技术作为数据保护工程的新技术,并特别强调 MPC 和零知识证明作为先进的假名化技术。欧洲数据保护委员会也认可 MPC 作为国际个人数据传输的补充技术措施。欧盟委员会联合研究中心发表了一份关于研究过程中合成数据有用性的分析报告。
2021年初,美国参议院出台了《促进数字隐私技术法案》,计划支持隐私技术的研究、部署和标准化。美国国土安全部也表示有兴趣用技术术语定义隐私,并举办了一次研讨会,重点展示新兴隐私增强技术的案例。在加拿大,隐私专员办公室最近也发布了有关合成数据各个方面的需要考虑的因素。
2022 年 7 月,新加坡信息通信媒体发展局启动了一项为期六个月的沙盒计划,以支持有兴趣采用新兴隐私增强技术的企业。2022 年 5 月,韩国个人信息保护委员会牵头开发了 11 项核心隐私增强技术,并将在未来四年内继续开发。
发展不仅仅是国内的。2022 年,联合国发起了隐私增强技术验室倡议,这是一项全球黑客马拉松,旨在应对安全和负责任地使用隐私增强技术方面的挑战。2021 年,美国和英国赞助了一项双边有奖挑战赛,以促进隐私增强技术的采用。新加坡 IMDA 和蒙特利尔国际人工智能促进中心于 2022 年 6 月签署了一份关于隐私增强技术跨境合作的谅解备忘录。韩国和法国数据保护当局很快也签署了一项协议, 共同研究隐私增强技术。
技术未来:挑战与展望
随着更多隐私增强技术的开发和实施,挑战将变得越来越明显。隐私增强技术处于起步阶段,还需要更多的技术专家,尤其是政府在未来使用更加严格的数据管理方法。同样,用例示例或现成的解决方案也很少,这使得隐私工程师很难确定隐私增强技术在日常操作中的适用性。
而且,隐私增强技术并不是保护个人信息的“灵丹妙药”解决方案。当然,隐私保护框架设计不能简化为具体技术的实现。正如 ENISA 所说,隐私保护框架设计“是一个涉及各种技术和组织组件的过程,通过部署包括隐私增强技术的技术和组织措施来实施隐私原则。”
新兴的隐私增强技术缺乏监管指南可能会使隐私增强技术处理的数据陷入不稳定状态;结果是否可以被视为匿名、去识别化或假名化?当数据处理跨越多个司法管辖区时,这个问题可能会变得更加难以回答。理想情况下,监管机构和数据权威机构将继续围绕这些技术展开讨论和标准化,以使它们更容易在全球范围内采用和使用。
热门文章: